Linux系统宕机故障排查及原因分析 您所在的位置:网站首页 linux 停机 Linux系统宕机故障排查及原因分析

Linux系统宕机故障排查及原因分析

2023-08-11 21:20| 来源: 网络整理| 查看: 265

一、故障描述

突然发现某云主机无法ssh,业务线宕机,虽然主机处于开机状态,但是管理console VNC无法连入,无法ping通地址,云主机被判定为宕机。

二、排查过程

1)查看宕机记录

last -F |grep carsh last reboot //查看主机起来的时间

2)访问/var/logmessage日期查看宕机前的系统日志,查看是否有告警信息,根据告警信息具体检查

在这里插入图片描述 可执行:

watch -d -n 1 cat /var/log/messages //实时查看,-d表示高亮不同的地方,-n表示多少秒刷新一次。

发现报错:

kernel: NMI watchdog: BUG: soft lockup - CPU#3 stuck for 23s! [RapidStor:12509] kernel: NMI watchdog: BUG: soft lockup - CPU#5 stuck for 23s! [RapidStor:12515]

上述报错意味着 Linux 内核处理一个任务的时间太长而无法处理内核空间中的其他任务。watchdog守护程序监视此事件并在登录屏幕和 /etc/messages 中通知用户。

在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 在这里插入图片描述 从上图日志,可隐隐看出sdb磁盘的问题可能导致了CPU负载高,watchdog检查到报出soft lockup;但检查历史性能,cpu并不高:

在这里插入图片描述

3)查看dmesg查看内核日志

cat /proc/version_signature //确认内核版本,输出如下 Ubuntu 4.4.0-150.176-generic 4.4.179

4)查看/var/log/secure查看安全日志判断是否有人恶意攻击服务器

secure里没有明显异常,同样有message里关于soft lockup的报错。

5)查看pci:

执行:lspci -vnvn

查看IO性能: yum -y install iotop sysstat  #安装必要的监控IO的工具,即iotop和iostat

$ iostat -kx 2 $ vmstat 2 10 //一个参数是采样的时间间隔数,单位是秒,第二个参数是采样的次数;


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有